The deployment of machine learning models in safety-critical applications comes with the expectation that such models will perform well over a range of contexts (e.g., a vision model for classifying street signs should work in rural, city, and highway settings under varying lighting/weather conditions). However, these one-size-fits-all models are typically optimized for average case performance, encouraging them to achieve high performance in nominal conditions but exposing them to unexpected behavior in challenging or rare contexts. To address this concern, we develop a new method for training context-dependent models. We extend Bridge-Mode Connectivity (BMC) (Garipov et al., 2018) to train an infinite ensemble of models over a continuous measure of context such that we can sample model parameters specifically tuned to the corresponding evaluation context. We explore the definition of context in image classification tasks through multiple lenses including changes in the risk profile, long-tail image statistics/appearance, and context-dependent distribution shift. We develop novel extensions of the BMC optimization for each of these cases and our experiments demonstrate that model performance can be successfully tuned to context in each scenario.
translated by 谷歌翻译
创建能够证明终身学习的人工智能(AI)系统是一个基本挑战,并且已经提出了许多方法和指标来分析算法属性。但是,对于现有的终身学习指标,算法贡献被任务和场景结构混淆。为了减轻此问题,我们引入了一种算法 - 敏捷的可解释的替代模型方法,以估计终身学习算法的潜在特性。我们验证通过合成数据实验估算这些特性的方法。为了验证替代模型的结构,我们分析了来自流行的终身学习方法和基准的真实绩效数据,这些基线适用于终身分类和终身强化学习。
translated by 谷歌翻译
转移学习是开发性能RL代理的越来越普遍的方法。但是,尚不清楚如何定义源和目标任务之间的关系,以及这种关系如何有助于成功转移。我们提出了一种称为两个MDP或SS2的结构相似性的算法,该算法基于先前开发的双仿真指标来计算两个有限MDP的状态的状态相似性度量,并表明该量度满足距离度量的属性。然后,通过GRIDWORLD导航任务的经验结果,我们提供了证据表明,距离度量可用于改善Q学习剂的转移性能,而不是先前的实现。
translated by 谷歌翻译
大多数深度加强学习(DRL)的方法试图一次解决单一任务。因此,大多数现有的研究基准组成包括具有普通接口,但在其感知特征,目标或奖励结构中重叠的单独游戏或套房。促进培训代理人的知识转移(例如,通过多任务和元学习),需要更多的环境套件,提供具有足够共同的可配置任务,以共同研究待研究。在本文中,我们提供了Meta Arcade,该工具可以轻松定义和配置共享公共视觉效果,状态空间,动作空间,游戏组件和评分机制的自定义2D街机游戏。元拱门与现有环境不同,因为任职性共性和可配置性都优先考虑:可以从公共元素构建整组游戏,并且这些元素可通过暴露参数调节。我们包括一套24个预定义的游戏,共同说明了该框架的可能性,并讨论如何为研究应用程序配置这些游戏。我们提供了几个实验,说明了可以使用Meta Arcade如何使用,包括预定义游戏的单项任务基准,以设定的时间表更改游戏参数的示例课程的方法,以及游戏之间的转移学习探索。
translated by 谷歌翻译
我们展示了一种带有Openai健身房界面的作物仿真环境,并应用现代深度加强学习(DRL)算法以优化产量。我们经验表明,DRL算法可用于发现新的政策和方法,以帮助优化作物产量,同时最小化水和肥料使用等约束因素。我们提出这种混合厂建模和数据驱动的方法,用于发现新策略的优化作物产量可能有助于满足越来越多的全球粮食需求,由于人口扩张和气候变化。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译